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Abstract 

Objective: The evaluation of medical research performance is a key 
prerequisite for the systematic advancement of medical faculties, re- 
search foci, academic departments, and individual scientists' careers. 
However, it is often based on vaguely defined aims and questionable 
methods and can thereby lead to unwanted regulatory effects. The 
current paper aims at defining the position of German academic medi- 
cine toward the aims, methods, and consequences of its evaluation. 
Methods: During the Berlin Forum of the Association of the Scientific 
Medical Societies in Germany (AWMF) held on 18 October 2013, inter- 
national experts presented data on methods for evaluating medical 
research performance. Subsequent discussions among representatives 
of relevant scientific organizations and within three ad-hoc writinggroups 
led to a first draft of this article. Further discussions within the AWMF 
Committee for Evaluation of Performance in Research and Teaching 
and the AWMF Executive Board resulted in the final consented version 
presented here. 

Results: The AWMF recommends modifications to the current system 
of evaluating medical research performance. Evaluations should follow 
clearly defined and communicated aims and consist of both summative 
and formative components. Informed peer reviews are valuable but 
feasible in longer time intervals only. They can be complemented by 
objective indicators. However, the Journal Impact Factor is not an ap- 
propriate measure for evaluating individual publications or their authors. 
The scientific "impact" rather requires multidimensional evaluation. 
Indicators of potential relevance in this context may include, e.g., nor- 
malized citation rates of scientific publications, other forms of reception 
by the scientific community and the public, and activities in scientific 
organizations, research synthesis and science communication. In addi- 
tion, differentiated recommendations are made for evaluating the ac- 
quisition of third-party funds and the promotion of junior scientists. 
Conclusions: With the explicit recommendations presented in the current 
position paper, the AWMF suggests enhancements to the practice of 
evaluating medical research performance by faculties, ministries and 
research funding organizations. 
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1 Status quo 

As early as in 1999 the AWMF (Association of the Scientif- 
ic Medical Societies in Germany) has critically commented 
on the inappropriate use of methods such as the unad- 
justed journal impact factor for evaluating medical re- 
search performance [1]. These comments have been 
widely received in German academic medicine and partly 
been followed by many faculties of medicine [2]. Also 
from the perspective of individual medical (e.g., [3]) and 
non-medical disciplines (e.g., [4]), the dominance of 
journal impact factors in evaluating the performance of 
individual researchers has been criticized repeatedly. 
Nevertheless, methodologically questionable quality in- 
dicators still play an important role when it comes to 
evaluating research performance of individuals and insti- 
tutions, as recently stated in an editorial in Science [5]. 
Based on the San Francisco Declaration on Research 
Assessment (DORA) there is a growing opposition against 
the allocation of public resources and the daily practice 
to decide about scientific careers mainly on the basis of 
cumulated journal impact factors. Peter Higgs, the current 
Nobel laureate in physics, recently criticized in an inter- 
view with the Guardian: "Today I wouldn't get an academic 
job... I don't think I would be regarded as productive 
enough" (http://www.theguardian.com/science/2013/ 
dec/06/peter-higgs-interview-underlying-incompetence). 

2 Recommendations 

The AWMF makes the following recommendations con- 
cerning the evaluation of medical research performance 
by faculties, ministries of research and research funding 
organizations: 

• The evaluation of medical research performance 
should be based on a priori and explicitly phrased and 
communicated aims. 

• Informed peer review procedures are particularly useful 
for evaluating medical research performance. However, 
because of the high effort involved in such peer review, 
it appears feasible only at longer time intervals. 

• The most important parameter of evaluation is the 
importance of research for the advancement of scientif- 
ic medicine or a particular medical discipline. 

• For this purpose, the journal impact factor is not an 
appropriate measure. Therefore it shall not be used 
for evaluatingthe research performance of individuals 
or institutions. It should rather be replaced, as soon 



as possible, with more appropriate indicators, such as 
adequately normalized citations rates. 

• Besides the reception bythe scientific community, also 
the usefulness for the practice of medicine (e.g., 
guideline relevance, transfer into practice) or the soci- 
ety as a whole (e.g., disease prevention, economic 
impact) are considered appropriate indicators of sci- 
entific impact in medicine. 

• In view of increasing problems with attracting junior 
scientists and physicians, adequate measures to at- 
tractand support youngacademics make upa second 
highly important parameter of evaluation. 

• The structure and processes of undergraduate academ- 
ic teaching, measures to support postgraduate junior 
scientists, and the respective results of these meas- 
ures are considered appropriate indicators for success- 
ful promotion of young scientists. [A separate position 
paper of the AWMF and the MFT (German Association 
of Medical Faculties) will address issues of evaluation 
in curricular medical teaching and will be issued in 
the near future.] 

• Depending on the aims of the evaluation, attracted or 
disbursed third party funds can also be used as para- 
meters for evaluation. 

• When evaluating attracted third party funds, public 
grants or comparable funds based on independently 
peer-reviewed grant proposals shall receive a higher 
score than funds from other sources, especially those 
without a competitive review process. 

• Besides simply addingthe total amounts of third party 
funds, the scientific "yield" per sum of money spent 
should be considered. Suitable algorithms should be 
developed for defining this ratio. 

• Suitable indicators should also be developed for the 
evaluation of research performed in larger, typically 
interdisciplinary groups, such as research consortia 
and multi-author publications. These indicators should 
take both the individual contribution and the achieve- 
ment of the group as a whole (added value by network- 
ing, coordination etc.) into account. This refers to the 
scientific impact as well as to jointly attracted third 
party funds. 



e journal 



GMS German Medical Science 2014, Vol. 12, ISSN 1612-3174 



2/18 



Herrmann-Lingen et al.: Evaluation of medical research performance - position 



3 Rationale for the 
recommendations 

3.1 Overarching aspects of evaluation 

Three overarchingaspects of evaluation can be identified 
with regards to medical research performance: 

• Aims of the evaluation: optimization of research per- 
formance by means of the regulating effects of sum- 
mative and formative evaluation on different levels 
(evaluation of individual researchers versus evaluation 
of institutes, clinical departments, centers or entire 
faculties) 

• Methods of evaluation: dimensions (input/output) [The 
term "output" as used here covers both the "impact" 
of research and promotion for junior scientists.] and 
instruments (e.g., informed peer review, metrics) 

• Consequences of the evaluation: material and imma- 
terial appraisal and reward for good performance, ad- 
aptation of general research environments etc. 

From the perspective of the AWMF, evidence base, 
transparence and acceptance of evaluations are pivotal 
prerequisites for their success. Evaluations should not 
be considered acts of top-down control but rather as in- 
teractive processes for quality assurance and develop- 
ment of science, and fair allocation of limited research 
resources and career opportunities. The methods of 
evaluation follow its defined aims. Conversely, the 
methods define, what consequences can plausibly be 
based on the evaluation. Aims and consequences there- 
fore create a necessary framework for methods of evalu- 
ation. The main focus of the current paper will be placed 
on these methods. 

3.2 Aims of evaluation 

The evaluation of medical research performance should 
always occur under an a priori clearly defined aim. The 
aim of the evaluation determines the type, intensity and 
frequency of evaluations. Evaluation of the quality of re- 
search performance is the most critical component in 
this context. Depending on the precise aims, quality can 
be operationalized as progress in scientific knowledge or 
the benefit of research for patient care, undergraduate, 
postgraduate and continued medical education (including 
attraction and promotion of junior scientists) or for other 
societal aims (e.g., prevention, ethical issues, economic 
relevance). In contrast to the summative evaluations 
predominating so far (i.e. evaluations of research results) 
the relative weight of formative evaluations (i.e. evaluation 
used for optimizing scientific processes) should be in- 
creased. Such formative evaluations can serve for giving 
constructive feedback with the aim of advancing individu- 
al careers, scientific programs and institutions and sup- 
porting the implementation of good scientific practice. 



3.3 Methods of evaluation 

Informed peer review procedures such as those that have 
been endorsed and performed by the German Council of 
Science and Humanities ("Wissenschaftsrat") are partic- 
ularly suitable for evaluating medical research perform- 
ance. Because of the high effort required forthis method 
(including, e.g., burden on reviewers) informed peer re- 
views appear feasible solutions only for select purposes 
(e.g., evaluation of whole faculties, appointment proced- 
ures) and at larger time intervals. 
Therefore, less costly evaluation methods must also be 
available. In this context, quantitative parameters can be 
applied under the precautions mentioned below. However, 
using an automatic link between certain numeric scores 
and subsequent (e.g. financial or career-related) con- 
sequences is strongly discouraged. Metric indicators 
should rather serve for informed discussions between 
the evaluating bodies and the evaluated researchers or 
institutions. Metric indicators should be interpreted in 
the context of the specific background of the particular 
medical discipline evaluated, its research culture, local 
conditions etc. 

In addition to formative evaluations, summative evalu- 
ations can be applied for specific regulatory processes 
in research funding or in preparation for decisions on 
career development and promotion. These evaluations 
shall, however, be used with a good sense of proportion 
and never without a critical appraisal of their regulatory 
effects, in order to counteract unwanted regulatory effects 
(e.g., effects on quantity instead of quality [6]; inappropri- 
ate overestimation of mainstream research, which tends 
to produce higher summative scores and may therefore 
be favored over innovative research). Any unwanted ef- 
fects should lead to immediate modification of the sum- 
mative parameters used. Any excessive "evaluatis" is 
disapproved by the AWMF. This includes, e.g., evaluations 
that are (in total or in parts) performed without a clear 
aim or clear consequences, an excessively high frequency 
of evaluations without appropriate increase in informa- 
tion, or evaluations at time intervals that are too short 
for initiating meaningful regulatory processes in research 
planning. 

The evaluation of medical research performance shall 
mainly focuse on three core areas: 

• The "impact" of research activities in a broader sense, 
i.e. their contribution to scientific, medical/clinical and 
other societal progress 

• The "input", i.e. especially the performance in generat- 
ing competitive third party funds 

• The "attraction and promotion of young scientists" as 
a crucial factor of sustainability 

These areas conform with recent recommendations on 
future research rankings issued by the German Council 
of Science and Humanities [7]. From the perspective of 
the AWMF also the criteria additionally proposed by the 
Council of Science and Humanities, i.e. science transfer, 
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knowledge transfer and reputation can be subsumed 
under these three dimensions. 

3.3.1 Evaluation of "impact" 

Asa signer of the San Francisco Declaration on Research 
Assessment (DORA: http://am.ascb.org/dora/) theAWMF 
commits itself to the requirements of evaluation of pub- 
lications as stated there. The following aspects are of 
particular relevance in the context of evaluation of re- 
search performance: 

• "Do not use journal-based metrics, such as Journal 
Impact Factors, as a surrogate measure of the quality 
of individual research articles, to assess an individual 
scientist's contributions, or in hiring, promotion, or 
funding decisions." 

• The scientific content of a publication is much more 
important than publication metrics or names of jour- 
nals. This is of particular importance when evaluating 
junior scientists. 

• Funding agencies and institutions should not only 
consider research publications but also the value of 
other research outcomes (data sets, software, patents 
etc.) and keep in mind a broader, also qualitative 
spectrum of impact measures including influence on 
politics and medical practice. 

When evaluating the impact of an individual's research 
performance, it is the position of the AWMF that the core 
question is whether this individual has contributed to 
progress in his or her discipline. 

This can be assessed or measured on different levels: 

• 1 st Level: Evaluation of publications 

a) In recognized scientific journals with peer review 

b) In other media (books, guidelines etc.) 

c) Citation by guideline recommendations 

• 2 nd Level: Active contributions to scientific organizations 
or boards and editorships 

• 3 rd Level: Leadership in organizing scientific confer- 
ences 

It is considered difficult to combine these three levels 
into a single scale, since no useful conversion factors are 
available. The levels lb to 3 should rather be considered 
relevant indicators in their own right and should be used 
to supplement the level la indicators predominating so 
far, leading to a multidimensional appraisal with separate 
subdimensions. 

Level la 

In addition to the requirements stated in the DORA, the 
following points are suggested: 

• As far as bibliometric indicators shall be used for 
summative evaluations, it must previously be made 
sure that these indicators are evidence-based, trans- 
parent and feasible. For testing the evidence base of 
indicators, the aim of the evaluation must be kept in 



mind (e.g. the desired regulatory effects of the evalu- 
ation). The simplicity of performance cannot be the 
main criterion and must not lead to the application of 
inappropriate instruments. However, also an evaluation 
that appears useful in terms of contents must remain 
feasible under the given conditions. For methodologic- 
ally adequate evaluation, bibliometric expertise must 
be "purchased", if necessary. Such services are com- 
mercially available. 

• Neither the journal impact factor nor the H-index are 
suitable measures for evaluation of individuals' re- 
search performance. The journal impact factor is a 
measure for citations to a journal over a relatively short 
timeframe. It is not sufficiently correlated with citation 
rates of individuals articles, does not take into account 
the variance in publication cultures among disciplines 
and must therefore not be used for evaluating individu- 
als and institutions. The H-index has been seen skep- 
tically due to its numerical instability and dependency 
on age. 

• The use of more differentiated bibliometric analyses 
is therefore preferred [5], especially the use of field 
and article type-normalized citation rates. [I.e. the 
standardization of citation rates of individual articles 
is based on their respective disciplines (as a reflected 
in the subject area of the journal in which an article 
is published) and on the article type: original papers, 
review articles and letters to the editor are weighted 
separately due to very different patterns of citation. It 
still needs to be determined how field normalization 
can be performed for interdisciplinary publications or 
publications from cross-sectional research areas as 
well as from those journals that are listed in the web 
of science in a category that differs from the German 
specification of medical disciplines.] 

• Field normalization reflects and adjusts for the differ- 
ences in publication and citation cultures across dis- 
ciplines [8], [9], [10]. Article type normalization takes 
into account the different average citation rates of e.g., 
original publications and reviews [11]. [Of course, also 
systematic reviews, meta-analyses and guidelines 
must be considered as genuine scientific publications. 
See also AWMF Statement dated 9 November 2013. 
http://www.awmf.org/fileadmin/user_upload/ 
Stellungnahmen/Forschung_und_Lehre/ 
AWMF-Resolution_Wiss-Anerkennung-LL-Arbeit.pdf]. 
The evaluation window for citations should cover sev- 
eral (e.g. five) years, as suggested by bibliometric re- 
search findings [11]. 

• When evaluating individual research performance, the 
"dos and don'ts" of individual-related bibliometrics 
according to Glanzel & Wouters [12] should be fol- 
lowed. 

• The individual contributions of each author of a publi- 
cation should be named in a standardized manner in 
all journals. Courtesy or honorary authorships are un- 
acceptable. 
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Level lb 

The following contributions should be counted as discrete 
publication forms with individually determined weights: 

• Monographs and book chapters 

• Guidelines and health technology assessment (HTA) 
reports, even when they have neither been published 
in a book nor in a scientific journal 

• Publications of original data, software developments, 
patents etc. (see DORA) 

• Provision of scientific findings to lay persons for non- 
scientific practice (e.g., patient guidebooks, press re- 
leases etc.) 

Level lc 

If a publication is cited by guidelines when immediately 
justifying specific recommendations ("guideline rele- 
vance") this should be considered an appropriate meas- 
ure of clinical impact of this publication and should be 
considered separately. 

Level 2 

Under this heading, activities for intra- and interdisciplin- 
ary networking and quality assurance of research should 
be evaluated. Relevant aspects of particular importance 
are 

• Editorship in scientific journals as a core instrument 
for disseminating research results 

• Active positions on boards, sections and working 
groups of scientific societies and organizations 

• Active involvement in scientific councils of recognized 
national or international research-fundingand science 
organizations. 

• Outstanding scientific reviewer positions (e.g., collegi- 
ates of the German Research Fund [DFG]) 

Level 3 

Organization and leadership in scientific meetings is an 
important medium of research communication and shall 
be considered as discrete achievement. 

3.3.2 Evaluation of "input" 

Input-related parameters of research performance can 
be defined on various levels. Those factors should be 
preferred that can be directly influenced by the evaluated 
person or institution: 

• General research framework (basic funding, expertise, 
strategic concepts, proportion of protected time for 
research, quality of promotion for junior scientists); 
this can be influenced on the level of faculties or cen- 
ters and will not be in the main focus of this statement. 

• Attraction and effective use of third party funds; this 
can be influenced by individual researchers. 



Parameters for the evaluation of research performance 
within faculties: 

• Explicit and transparent rules should be established 
what third party funds will be accepted for evaluation 
and how they will be weighted. 

• When weightingthird party funds for evaluation, funds 
granted after an independent review process must be 
given higher weights than those provided without inde- 
pendent review. 

• Also the source of funding should be weighted: public 
funding and neutral foundations should be given a 
higher weight than funds from special interest groups 
or industrial sponsors. 

• Contract research is sufficiently honoured by the funds 
provided and is appropriate for financing preliminary 
research for preparing competitive grand applications. 
It does not justify an additional bonus from public 
sources. However, in the area of applied science, it 
can be utilized for evaluating individual researches. 

• A fair and transparent evaluation of individual grant 
money from collaborative research projects and in- 
dustry-independent multicenter studies should ad- 
equately reflect both the achievement of the principal 
investigator as well as those of the collaboration part- 
ners. This is a necessary prerequisite for a culture of 
scientific collaboration. Eventually general weighting 
algorithms must be defined for the participants in 
various types of research consortia and studies (e.g., 
one third of evaluation weights for the principal appli- 
cant, distribution of the remaining two thirds among 
all collaboration partners or study centers). 

• Funds should be weighted according to the number 
of positions for scientists. The acquisition of expensive 
equipment should not be counted as scientific quality 
criterion. In clinical trials, weights based on the amount 
of case payments can be considered. Accordingly, flat 
rates can be used for evaluating third party-funded 
scientific services. 

• The cost effectiveness in terms of scientific output (as 
described under the chapters "impact" and "attraction 
and promotion of junior scientists") per funds granted 
should be considered as a measure for appropriate 
spending of resources when evaluating performance 
of researchers and institutions. For this purpose, suit- 
able algorithms have to be developed. 

When evaluating medical research, a bonus for systemic, 
translational and human subject or patient-related re- 
search with concrete reference to practical medicine 
should be introduced. 

3.3.3 Evaluation of attraction and promotion 
of junior scientists 

The attraction and promotion of junior scientists from the 
beginners' stage up to the independent researcher is a 
core issue of evaluation. 

The guiding principle should be to get students into sci- 
ence at an early stage and to support them in a sustain- 
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able way until they acquire sufficient competences for 
promotion to full professor. Target groups of promotions 
are undergraduate students, doctoral students and post- 
doctoral fellows as well as associate professors of medi- 
cine and dentistry, physicians, dentists and scientists 
from related areas. They should be taught a multidimen- 
sional model of research that includes scientific work it- 
self, its application in practical medicine, lifelong learning, 
and teaching. This is in accordance with the role of a 
"scholar" as defined in the CanMEDs model of teaching 
[13], in which the role of a scholar is defined as a core 
role of graduates from medical school curricula in accord- 
ance with the international outcome framework. In so far, 
also the support for scientific competence for students 
going through the basic medical curriculum should be 
considered an instrument of promotion of junior scient- 
ists. Its evaluation, however, will not be addressed here 
in detail and only under the aspect of relevance for re- 
search, since the evaluation of achievements in teaching 
will be the subject of a separate position paper which is 
currently being developed between the AWMF and the 
German Association of Medical Faculties ("Medizinischer 
Fakultatentag"). 

3.3.3.1 Quantitative indicators 

Aspects of junior scientist promotion measurable at the 
level of institutions (faculty, institute, clinical department) 
include: 

• Broadness and depth of measures for junior scientist 
promotion e.g., 

• Structured programs for acquainting students with 
research: exchange programs, curricular (teaching 
of scholar competencies, compulsory and elective 
courses) and hypothesis-based offerings (e.g., 
journal clubs, term or master theses, "how-to" 
courses), graduate schools/MD/PhD programs [14], 
clinical/physician scientist programs [15], mentoring 
programs in interdisciplinary networks 

• Number of students mentored during medical school 
(as a modular bridge before the start of scientific 
specialization [16]) 

• Amount of protected time guaranteed [17], i.e. 
dedicated time for research without competing ob- 
ligations in teaching and patient care for junior sci- 
entists in all steps of their careers until promotion 
to full professorship. Indicators: Time of exemption 
from clinical duties in percentages of a full employ- 
ment (per duration of employment), amount of insti- 
tution-wide conference times for research (per week 
or month) with percent participation rates of junior 
scientists. 

• Results of measures for junior scientist promotion e.g. 

• Number of graduates from the programs named 
above 

• Sustainability of programs; indicators may be e.g., 
career development, publication, attraction of grant 
money by junior scientists 



• Number of tenure track professorships in research 
and teaching [18] 

• Number of appointments of junior researchers to 
scientific leadership positions or to clinical leader- 
ship positions with a minimum of requirement in 
the three dimensions of scholar competences (ap- 
plication of scientific results, lifelong learning, 
teaching) 

Individually measurable quantitative criteria of junior 
scientist promotion include 

• Number of adequately supported qualification theses 
(indicator e.g., number of doctoral students per com- 
pleted doctorate) 

• Number of junior staff supported by structured re- 
search and funding programs or with leading role in 
development of evidence based guidelines 

• Career development and research success of junior 
staff from own research group (criteria see above) 

3.3.3.2 Qualitative indicators 

Indicators that can be measured on the level of the insti- 
tution (faculty, institute, clinical department) include: 

• Availability and integration (both horizontal and verti- 
cal) of appropriate measures to promote junior scien- 
tists in the different stages of their careers, e.g. struc- 
tured doctoral programs and sustainable support pro- 
grams, internal and external peer review and coaching 
procedures (learning from the best, from common 
sense to scientific excellence, soft skills development). 
These programs shall foster interactions between juni- 
or scientists and established experts as suggested by 
the recommendations of the German Council of Sci- 
ence and Humanities [19] and the German Medical 
Association [20]. Further indicators may be the exist- 
ence of research tracks and representatives of scientif- 
ic societies within the institution. 

• Availability of quality standards (e.g., good scientific 
practice) and scientific infrastructure including, among 
others, programs for startup financing (for e.g., one 
year) in order to pay young scientists on the way to 
their first DFG grant, infrastructure directly related to 
grant applications (among others, courses about good 
clinical and scientific practice or good laboratory 
practice, grant counselling, support with related paper- 
work when dealing with e.g., animal protection author- 
ities, availability of electronic laboratory diaries, use 
of core facilities or core research units) and clinical 
trials infrastructure (to support formal requirements 
from health authorities etc., among others: data pro- 
tection, ethics committees, Federal Institute for Phar- 
maceuticals and Medical Products (BfArM), registration 
with state authorities and trial registries such as clin- 
icaltrials.gov, writing of safety reports, procedures for 
prepublication of methods, evidence based monitoring 
of documents). 

• Availability of measures to increase transparency and 
equal opportunities. E.g., transparency of the scientific 
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profile as an instrument for targeted choice of the 
university by junior scientists. 

• Flat hierarchies with e.g., trainee representation/speak- 
ers for assistant researchers, tandem professorships 
(e.g. following the Swiss example: assistant professor- 
ship with 50% time for research and teaching plus 
50% for patient care, followed by a tenure track with 
70% for research and teaching plus 30% for patient 
care or reverse); equal payment for scientific and 
clinical work over the whole course of the career; sus- 
tainability by better compatibility of career and family 
(childcare, eventually also at night, during weekends 
and with priority for scientists, childcare during meet- 
ings, seminars and conferences, emergency childcare). 

Individually measurable qualitative criteria include: 

• Active participation in the promotion of young scientists 
by collaborating in e.g., DFG young scientistacademies, 
summer schools for outstanding doctoral students, 
personal dedication as a model function, teaching of 
basic scientific competences to group members, e.g., 
teaching the difference between practice (everyday 
knowledge) profession (professional knowledge) and 
science (scientific knowledge) as well as bridging the 
gaps between analytics, transformation and theory; 
early integration of junior scientists in working groups 
with increasing individual responsibilities. 

• Quality of research performance of group members, 
e.g. reproducibility of results of members from the own 
group by other research groups, self-assessment: 
evaluation of both the most important results of own 
research and of the independence of own research by 
junior scientists as a measure of junior scientists' 
promotion by their respective mentors, consequent 
tracking of junior scientists' research, which should 
be reflected in a line of research and make clear the 
relevance of this research. 

3.4 Consequences of evaluation 

Possible consequences of the evaluation have to be 
clearly defined a priori. They should follow the aims of 
the evaluation and keep in mind its methodological limi- 
tations. Beside immediate feedback and joint discussion 
of evaluation results they can consist of a targeted appli- 
cation of instruments for organizational (e.g., creation of 
new research foci), project (e.g., funding decision) and 
career planning (e.g. appointment, tenure, mentoring), 
as long as they are based on a well-balanced and trans- 
parent procedure. 

The performance-related allocation of funds is only one 
of numerous possible consequences of evaluation and 
its regulatory effects are seen controversially [21]. Appre- 
ciation of good work is of particular importance for the 
vast majority of scientists who are highly and intrinsically 
motivated. This should equally cover achievements in 
research, teaching and (in clinical medicine) also in pa- 
tient care. The recognition can also be expressed by 
provision of time resources. In contrast, over the long 



term a predominance of financial incentives as extrinsic 
motivators runs the risk to undermine intrinsic motivation. 
This is particularly true, when the underlying evaluation 
processes are perceived as intransparent or unjust. 
Therefore a sufficient basic funding of institutions is of 
high importance and should be subject to comprehensive 
evaluations only in longer time intervals in order to be 
adapted to new developments. 
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Positionspapier 



AWMF-Positionspapier zur Evaluation der medizinischen 
Forschungsleistung 



Zusammenfassung 

Ziele: Die Evaluation medizinischer Forschungsleistung ist eine zentrale 
Voraussetzung fur die gezielte Weiterentwicklung von Fakultaten, For- 
schungsschwerpunkten, Instituten bzw. Kliniken sowie Wissenschaftler- 
karrieren. Sie basiert aber vielfach auf unklaren Zielvorstellungen und 
fragwurdigen Methoden und kann zu Fehlsteuerungen fuhren. Ziel der 
vorliegenden Arbeit ist eine Positionsbestimmungderwissenschaftlichen 
Medizin gegenuber den Zielen, Methoden und Konsequenzen ihrer 
Evaluation. 

Methoden: Im Rahmen des Berliner Forums der AWMF vom 18.10.2013 
wurden von internationalen Experten Befunde zur Methodik der Evalua- 
tion medizinischer Forschungsleistung referiert, von Vertretern relevanter 
Wissenschaftsorganisationen diskutiertund in drei Adhoc-Schreibgrup- 
pen in einen Textentwurf gefasst. Dieser wurde mehrfach in der AWMF- 
Kommission fur Leistungsevaluation in Forschung und Lehre sowie im 
AWMF-Prasidium diskutiert und in der vorliegenden finalen Fassung 
konsentiert. 

Ergebnisse: Die AWMF empfiehlt eine Veranderung des Systems der 
Bewertung medizinischer Forschungsleistungen. Evaluationen sollten 
eine a priori klar definierte und kommunizierte Zielsetzung besitzen 
und neben summativen auch formative Elemente enthalten. Neben 
sinnvollen aber nur in langeren Intervallen praktikablen informierten 
peer reviews konnen auch objektive Indikatoren zur Evaluation einge- 
setztwerden. Die Verwendung des Journal Impact Factors zur Bewertung 
einzelner Publikationen oder ihrer Autoren wird dabei abgelehnt. Der 
wissenschaftliche Jmpact" erfordert vielmehr eine multidimensionale 
Beurteilung, in der z.B. normierte Zitationsraten wissenschaftlicher 
Publikationen ebenso Berucksichtigungfinden wie andere Formen der 
Rezeption in Fachweltund Offentlichkeit sowie Tatigkeiten im Bereich 
der Wissenschaftsorganisation, -synthese und -kommunikation. Daneben 
werden Vorschlage zu einer differenzierten Bewertung von Drittmittel- 
einwerbung und Nachwuchsforderung gemacht. 
Folgerungen: Mitden konkreten Empfehlungen des vorliegenden Posi- 
tionspapiers legt die AWMF den Fakultaten, Ministerien und Organisa- 
tionen der Forschungsforderung eine Weiterentwicklung der Evaluati- 
onspraxis medizinischer Forschungsleistungen nahe. 
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1 Ausgangslage 

Die Arbeitsgemeinschaft der Wissenschaftlichen Medizi- 
nischen Fachgesellschaften (AWMF) hat bereits im Jahr 
1999 kritisch zur Bewertung der medizinischen For- 
schungsleistung, insbesondere auch zur Verwendung des 
unadjustierten Journal Impact Factors, Stellung genom- 
men [1]. Diese Empfehlungen wurden breit rezipiert und 
an vielen Fakultaten zumindestteilweise umgesetzt [2]. 
Auch aus der Perspektive einzelner medizinischer (z.B. 
[3]) und nichtmedizinischer Facher (z.B. [4]) wurde die 
Dominanz der Journal Impact-Faktoren fur die Leistungs- 
bewertung individueller Wissenschaftler wiederholt kriti- 
siert. Dennoch spielen methodisch zumindestfragwurdige 
Qualitatsindikatoren nach wie vor eine bedeutende Rolle 
bei der Bewertung der Forschungsleistungvon Individuen 
und Institutionen, wie kurzlich in einem Editorial in 
Science erneut betont wurde [5]. Unter Verweis auf die 
San Francisco Declaration on Research Assessment 
(DORA) wird der Verteilung offentlicher Mittel und der 
Praxis der Entscheidunguber wissenschaftliche Karrieren 
auf der Basis summierter Journal Impact-Faktoren jetzt 
auch auf breiter Basis entgegengetreten. Peter Higgs, 
deraktuelle Nobelpreistragerfur Physik, kritisierte kurz- 
lich in einem Interview mit dem Guardian: „Today, 

1 wouldn't get an academic job. ... I don't think I would be 
regarded as productive enough" (http://www. 
theguardian.com/science/2013/dec/06/peter-higgs- 
interview-underlying-incompetence). 

2 Empfehlungen 

Die AWMF empfiehlt den Fakultaten, Wissenschaftsminis- 
terien und Institutionen der Forschungsforderungfolgen- 
de Punktezur Bewertung der medizinischen Forschungs- 
leistung: 

• Der Evaluation medizinischer Forschungsleistung 
sollte eine jeweils a priori explizit formulierte und 
kommunizierte Zielsetzung zugrunde liegen. 

• Methodisch eignen sich zur Evaluation medizinischer 
Forschungsleistung insbesondere informierte peer- 
review-Verfahren. Wegen des damit verbundenen 
Aufwands stellen diese jedoch nur in groSeren zeitli- 
chen Intervallen gangbare Wege dar. 



• Wichtigster Parameter der Evaluation ist die Bedeutung 
der Forschungsleistung fur die Weiterentwicklung der 
wissenschaftlichen Medizin bzw. eines spezifischen 
Fachgebiets. 

• Der Journal Impact Factor ist hierfur kein geeignetes 
Instrument. Er soil daher nicht fur die Bewertung der 
Forschungsleistungvon Individuen oder Institutionen 
verwendet werden sondern schnellstmoglich durch 
geeignete Indikatoren, z.B. adaquat normierte Zitati- 
onsraten ersetzt werden. 

• Geeignete Indikatoren des medizinisch-wissenschaft- 
lichen Impacts umfassen neben der Rezeption in der 
wissenschaftlichen Fachweltauch die Nutzlichkeitfur 
die praktische Medizin (z.B. Leitlinien-Relevanz, Pra- 
xistransfer) bzw. die Gesellschaft insgesamt (z.B. 
Krankheitspravention, okonomischer Nutzen). 

• Angesichts zunehmender Nachwuchsprobleme in der 
medizinischen Forschung und der Medizin insgesamt 
stellt eine geeignete Nachwuchsgewinnungund -forde- 
rungeinen zweiten wesentlichen Evaluationsparameter 
dar. 

• Geeignete Indikatoren fur erfolgreiche Nachwuchsfor- 
derungsollten sowohl dieStruktur-und Prozessqualitat 
der akademischen Lehre als auch MaSnahmen zur 
Forderungdes postgraduierten Nachwuchses und ihre 
jeweiligen Ergebnisse erfassen. [Eine separate Stel- 
lungnahme der AWMF und des MFT (Medizinischer 
Fakultatentag) zur Evaluation der curricularen Lehre 
befindet sich gegenwartig in Vorbereitung.] 

• Je nach Zielsetzung der Evaluation konnen auch die 
eingeworbenen bzw. verausgabten Drittmittel als Pa- 
rameter genutzt werden. 

• Bei der Evaluation der Drittmitteleinwerbung sollten 
antragsbasierte und unabhangig begutachtete Mittel 
offentlicher Fordermittelgeber oder vergleichbarer 
Forderorganisationen hoher bewertet werden als un- 
begutachtete Zuwendungen anderer Herkunft. 

• Neben einer reinen Bewertung von Drittmittelsummen 
sollte der wissenschaftliche „Ertrag" pro eingesetzter 
Fdrdersumme Berucksichtigungfinden. Hierfur sollten 
geeignete Algorithmen entwickelt werden. 

• Es sind geeignete Indikatoren fur die Evaluation in 
grdSeren, oft interdisziplinaren Gruppen erbrachter 
Leistungen (z.B. Forschungsverbunde, Vielautoren- 
Publikationen) zu entwickeln, die sowohl dem individu- 
ellen Beitrag als auch der Gruppenleistung insgesamt 
(Mehrwert durch Vernetzung, Koordination etc.) 
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Rechnung tragen. Dies betrifft sowohl den wissen- 
schaftlichen Impactalsauch gemeinsam eingeworbe- 
ne Drittmittel. 

3 Begrundung der Empfehlungen 

3.1 Ubergeordnete Aspekte der 
Evaluation 

Bei der Evaluation medizinischer Forschungsleistung 
konnen drei ubergeordnete Aspekte unterschieden wer- 
den: 

• Ziele der Evaluation: Leistungsoptimierung der For- 
schungdurch die Steuerungswirkung von summativer 
und formativer Evaluation auf verschiedenen Ebenen 
(Beurteilung von Einzelpersonen vs. Beurteilung von 
Instituten, Kliniken, Schwerpunkten oder Fakultaten) 

• Methoden der Evaluation: Dimensionen (input/output) 
[Der Begriff „output" umfasst hier sowohl den Jmpact" 
der Forschung als auch die Nachwuchsfdrderung.] 
und Instrumente (z.B. informierter peer review, MaS- 
zahlen) 

• Konsequenzen der Evaluation: Materielle und immate- 
rielle Bewertungund Belohnungguter Leistung, An pas- 
sung der Rahmenbedingungen etc. 

Aus Sicht der AWMF sind Evidenzbasierung, Transparenz 
und Akzeptanz von Evaluationen wesentliche Vorausset- 
zungen fur ihren Erfolg. Evaluationen sollten keine hoheit- 
lichen Akte sondern interaktive Prozesse zur Qualitatssi- 
cherung und -entwicklung der Wissenschaft und fairen 
Allokation begrenzter Forschungsressourcen und Karrie- 
reoptionen sein. Dabei folgt die Methodik den Zielsetzun- 
gen der Evaluation. Umgekehrtergibtsich aus ihr, welche 
Konsequenzen sinnvoller Weise aus der Evaluation zu 
Ziehen sind. Zielsetzungen und Konsequenzen stellen 
somit notwendige Rahmenbedingungen der Evaluations- 
methodik dar, die den Schwerpunkt der vorliegenden 
Stellungnahme bildet. 

3.2 Ziele der Evaluation 

Die Evaluation medizinischer Forschungsleistungen sollte 
jeweils unter einer bereits a priori klar definierten Zielset- 
zung erfolgen. Das Evaluationsziel bestimmt die Art, In- 
tensitatund Haufigkeit von Evaluationen. Entscheidend 
ist dabei die Beurteilung der Qualitat der Forschungsleis- 
tung. Diese kann sich je nach konkreter Zielsetzung am 
erzielten Erkenntnisfortschritt oder dem Nutzen der For- 
schung fur die Krankenversorgung, die Arzte-Aus-, Fort- 
und Weiterbildung incl. Nachwuchsgewinnung und -forde- 
rung oder fur andere gesellschaftliche Ziele (z.B. Preven- 
tion, ethische Fragestellungen, okonomische Relevanz) 
orientieren. 

Gegenuber den bislang vorherrschenden summativen 
Evaluationen (also Evaluationen zur Ergebnisbewertung) 
ist das Gewicht formativer Evaluationen (also solcher zur 
Prozessoptimierung) zu erhohen. Diese konnen konstruk- 



tives Feedback mit dem Ziel der Weiterentwicklung indi- 
vidueller Karrieren, wissenschaftlicher Programme und 
Einrichtungen geben und die Implementierung guter 
wissenschaftlicher Praxis fordern. 

3.3 Methoden der Evaluation 

Methodisch eignen sich zur Evaluation medizinischer 
Forschungsleistung insbesondere informierte peer-review- 
Verfahren wie sie z.B. vom Wissenschaftsrat vertreten 
und durchgefuhrt werden. Wegen desdamitverbundenen 
Aufwands (incl. Belastung der Gutachter) stellen diese 
jedoch nurfurausgewahlte Zielsetzungen (z.B. Evaluation 
von Fakultaten, Berufungsverfahren) und in groSeren 
zeitlichen Intervallen gangbare Wege dar. 
Es mussen daher auch weniger aufwandige Evaluations- 
methoden zur Verfugung stehen. Hierfur konnen unter 
den unten aufgefuhrten Pramissen auch quantitative 
Parameter zum Einsatz kommen. Ein Automatismus zwi- 
schen dem Erreichen einer bestimmten MaSzahl und ei- 
ner nachfolgenden (z.B. finanziellen oder karri erebezoge- 
nen) Konsequenz wird aber abgelehnt. Vielmehr sollten 
auch metrische Indikatoren zunachst Gegenstand einer 
gemeinsamen Erorterung von Evaluierendem und Evalu- 
iertem sein und gemeinsam vor dem spezifischen Hinter- 
grund des Fachgebiets und seiner Forschungskultur, lo- 
kaler Besonderheiten etc. bewertet werden. 
Neben formativen Evaluationen konnen summative Eva- 
luationen zur gezielten Steuerung der Forschungsforde- 
rungoder Vorbereitungvon Karriereschritten zum Einsatz 
kommen. Ihr Einsatz soil aber mit AugenmaS und niemals 
ohne kritische Uberprufung ihrer Steuerungswirkung er- 
folgen, so dass Fehlsteuerungen (z.B. Quantitat vor Qua- 
litat [6]; Innovationsfeindlichkeit durch Fokussierungder 
Forschung auf den hinsichtlich summativer Parameter 
leichter vorhersagbaren Mainstream) fruhzeitig durch 
Anderung der Parameter der summativen Evaluation 
entgegengewirkt werden kann. 

Eine uberzogene „ Evaluitis" wird von der AWMF kritisch 
gesehen. Hiervon ist z.B. auszugehen, wenn Evaluationen 
ganz oder in Teilen ohne klare Zielsetzung bzw. Konse- 
quenzen erfolgen oder wenn eine zu hohe Dichte der 
Evaluationen im Missverhaltnis zu ihrem Erkenntnisge- 
winn bzw. zu den fursinnvolleSteuerungsprozesse in der 
Wissenschaft benotigten Zeitintervallen steht. 
Die Evaluation medizinischer Forschungsleistung soil im 
Wesentlichen drei zentrale Bereiche erfassen: 

• den Jmpact" der Forschungstatigkeit im weiteren 
Sinne, also ihren Beitragzum wissenschaftlichen, kli- 
nisch-medizinischen und sonstigen gesellschaftlichen 
Fortschritt 

• den Jnput", hier insbesondere die Leistung bei der 
kompetitiven Drittmitteleinwerbung 

• die Nachwuchsforderungals wesentlichen Nachhaltig- 
keitsfaktor. 

Diese Bereiche stehen in Ubereinstimmung mit den aktu- 
ellen Empfehlungen des Wissenschaftsrats [7] zu zukunf- 
tigen Forschungsratings. Aus Sicht der AWMF lassen sich 
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unter diese drei Dimensionen auch die vom Wissen- 
schaftsrat zusatzlich vorgeschlagenen Kriterien Wissen- 
schaftstransfer, Wissensvermittlung und Reputation 
subsumieren. 

3.3.1 Evaluation des Jmpacts" 

Mit dem Beitritt zur San Francisco Declaration on Re- 
search Assessment (DORA: http://am.ascb.org/dora/) 
bekenntsich dieAWMFzu den dorterhobenen Forderun- 
gen zur Publikationsbewertung. Von besonderer Bedeu- 
tung im Kontext der Leistungsevaluation sind hier: 

• Keine Nutzung von Journal-Metriken wie dem Journal 
Impact Factor als QualitatsmaS zur Beurteilung der 
Qualitat individueller Artikel Oder ihrer Autoren bzw. 
deren Einstellung oder (Be-) Forderung. 

• Der wissenschaftliche Gehalt einer Arbeit ist wesentlich 
bedeutsamer als Publikationsmetriken oder Journal- 
Namen. Dies gilt besonders auch bei der Beurteilung 
von Nachwuchswissenschaftlerlnnen. 

• Forderer und Institutionen sollen neben Forschungs- 
publikationen auch den Wert anderer Forschungser- 
gebnisse (Datensatze, Software, Patente...) bedenken 
und ein breiteres, auch qualitatives Spektrum an Im- 
pactmaSen incl. Einfluss auf Politik und Praxis beach- 
ten. 

Kernpunkt bei der Beurteilung des Impacts der For- 
schungsleistungen einer Person ist aus Sicht der AWMF 
die Frage, ob diese Person in ihrem Fach etwas bewegt 
hat. 

Dies kann auf verschiedenen Ebenen erfasst bzw. gemes- 
sen werden: 

• 1. Ebene: Bewertungvon Publikationen 

a) in anerkannten wissenschaftlichen Fachzeitschriften 
mit peer review 

b) in anderen Medien (Bucher, Leitlinien etc.) 

c) Zitation durch Leitlinienempfehlungen 

• 2. Ebene: Aktive Aufgaben in Wissenschaftsorganisa- 
tionen, Gremien und Herausgeberschaften 

• 3. Ebene: Organisation/Leitung wissenschaftlicher 
Tagungen 

Dabei ist es methodisch schwierig, die drei Ebenen auf 
einer gemeinsamen Skala zusammenzufassen, da keine 
sinnvollen Umrechnungsfaktoren existieren. Die Ebenen 
lb bis 3 sind aber zusatzlich zur bislangvorherrschenden 
Ebene la als Indikatoren mit eigener Berechtigung zu 
berucksichtigen und sollten daher im Sinne einer mehr- 
dimensionalen Bewertung in separaten Rubriken in die 
Evaluation einflieSen. 

Ebene la 

In Erganzungder Forderungen der DORA werden folgende 
Punkte angeregt: 

• Soweit einer summativen Evaluation bibliometrische 
Indikatoren zugrundegelegt werden sollen, musszuvor 



sichergestellt werden, dass diese evidenzbasiert, 
transparent und praktikabel sind. Bei der Prufung der 
Evidenzbasierung ist das Evaluationsziel zugrundezu- 
legen (z.B. gewunschte Steuerungswirkung der Evalua- 
tion). Die Einfachheit der Durchfuhrung kann dabei 
nicht wesentliches Kriterium sein und zur Wahl unge- 
eigneter Instrumente fuhren. Dennoch muss eine in- 
haltlich sinnvolle Evaluation unter den gegebenen 
Bedingungen durchfuhrbar bleiben. Fur eine metho- 
disch adaquate Evaluation muss bei Bedarf die erfor- 
derliche bibliometrische Expertise „eingekauft" werden. 
Entsprechende Angebote sind auf dem Markt verfug- 
bar. 

• Weder der Journal Impact Factor noch der H-lndex 
eignen sich fur die individuelle Leistungsbeurteilung. 
Der Journal Impact Factor stellt ein MaS fur die Zitati- 
onshaufigkeit einer Zeitschrift uber einen relativ kurzen 
Zeitraum dar. Er korreliert nicht hinreichend mit den 
Zitationsraten individueller Beitrage, bildetunterschied- 
liche Publikationskulturen verschiedener Facher nicht 
ab und ist daher fur die Beurteilung von Individuen 
und Institutionen ungeeignet. Der H-lndex ist wegen 
numerischer Instabilitat und Altersabhangigkeit kritisch 
zu sehen. 

• Die Verwendung differenzierterer bibliometrischer 
Analysen wird daher bevorzugt [5], insbes. die Verwen- 
dung Feld- und Artikeltyp-normierter Zitationsraten. 
/DA, die Standardisierung der Zitationsraten einzelner 
Artikel erfolgt auf der Basis des jeweiligen Fachgebiets 
(ermittelt uber die Fachgebietszuordnung der Zeit- 
schrift, in der der Artikel erscheint) sovw'e des Artikel- 
Typs: Originalarbeiten, Obersichten und Leserbriefe 
werden wegen sehr unterschiedlicherZitationsmuster 
separat gewertet. Offen ist noch, wie die Fachzugeho- 
rigkeit interdisziplinarer Publikationen bzw. von Publi- 
kationen aus Querschnittsbereichen oder aus solchen 
Journalen bewertet werden soil, deren Zuordnung im 
Web of Science von dem deutschen Facherkanon ab- 
weicht] Die Feldnormierung reflektiert und adjustiert 
fur die unterschiedlichen Publikations- und Zitations- 
kulturen verschiedener Fachgebiete [8], [9], [10]. Die 
Artikeltyp-Normierung tragt den unterschiedlichen 
mittleren Zitationsraten von z.B. Originalarbeiten und 
Obersichten Rechnung [11]. [Selbstverstandlich sind 
auch systematische Obersichtsarbeiten, Metaanalysen 
und Leitlinien als originare wissenschaftliche Publika- 
tionsleistungen zu werten, vgl. Resolution der AWMF 
vom 9.11.2013 http://www.awmf.org/fileadmin/user_ 
upload/Stellungnahmen/Forschung_und_Lehre/ 
AWMF-Resolution_Wiss-Anerkennung-LL-Arbeit.pdf]. 
Als Bewertungsfenster sollen angesichts der empiri- 
schen Datenlage zum Zitationsverhalten Zeitraume 
von mehreren (z.B. funf) Jahren zugrunde gelegt wer- 
den [11]. 

• Bei der individuellen Leistungsbewertung sollten die 
„dosand dont's" der individuumsbezogenen Bibliome- 
trie nach Glanzel & Wouters [12] beachtet werden. 

• Die individuellen Beitrage jedes Autors auf Publikatio- 
nen sollten in alien Zeitschriften standardisiert benannt 
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werden. Gefalligkeits- und Ehren-Autorenschaften sind 
unzulassig. 

Ebene lb 

Mit jeweils individuell festzulegender Gewichtung sind 
als eigenstandige Publikationsformen diefolgenden Bei- 
trage zu berucksichtigen: 

• Monographien und Buchbeitrage 

• Leitlinien und Health Technology Assessment-(HTA)- 
Berichte, auch wenn sie weder in Buchform noch in 
einer wissenschaftlichen Fachzeitschrift erschienen 
sind 

• Publikationen von Originaldaten, Softwareentwicklun- 
gen, Patenten etc. (s. DORA) 

• Verfugbarmachen wissenschaftlicher Erkenntnissefur 
die nicht-wissenschaftliche Praxis durch laiengerechte 
Aufbereitung; z.B. Patientenratgeber, Darstellungen 
in der Presse etc. 

Ebene lc 

Die Zitation durch Leitlinien bei der unmittelbaren Begrun- 
dung konkreter Empfehlungen („Leitlinien-Relevanz") 
stellt ein geeignetes MaS des klinischen Impacts einer 
Publikation dar und sollte separate Berucksichtigung 
finden. 

Ebene 2 

Hier sind Aktivitaten zur intra- und interdisziplinaren Ver- 
netzungund Qualitatssicherungder Forschungzu bewer- 
ten. 

Relevante Punkte sind hier insbesondere: 

• Herausgabe wissenschaftlicher Zeitschriften als we- 
sentliches Instrument zur Verbreitung von Forschungs- 
ergebnissen 

• Mitarbeit in Vorstanden, Sektionen und Arbeitsgemein- 
schaften von Fachgesellschaften und Wissenschafts- 
organisationen 

• Mitarbeit in wissenschaftlichen Beiraten anerkannter 
nationaler oder internationaler Wissenschafts- und 
Forschungsforderorganisationen 

• HerausgehobeneGutachtertatigkeit(z.B. DFG-Kollegia- 
ten) 

Ebene 3: 

Die Organisation und Leitung von Fachtagungen als 
wichtiges Medium der Wissenschaftskommunikation soil 
als eigenstandige Leistung berucksichtigt werden. 

3.3.2 Evaluation des „lnputs" 

Inputbezogene Parameter fur die Forschungsleistung 
konnen auf unterschiedlichen Ebenen definiert werden. 
Dabei sollen die vom zu Evaluierenden direkt beeinfluss- 
baren Faktoren im Vordergrund stehen: 



• Rahmenbedingungen (Grundausstattung, Expertise, 
Strategiekonzepte, Anteil Arbeitszeit fur Forschung, 
Betreuungsqualitatfur den wissenschaftlichen Nach- 
wuchs); beeinflussbar auf Ebene von Fakultaten oder 
Zentren. Hierzu wird im vorliegenden Papier nichtde- 
tailliert Stellung genommen. 

• Einwerbungund effektive Verwendungvon Drittmitteln; 
beeinflussbar auf Ebene der einzelnen Forscher 

Evaluationsparameter fur die Forschungsleistung inner- 
halb der Fakultaten: 

• DieAnerkennungund Gewichtung Evaluations-relevan- 
ter Drittmittel muss explizitfestgelegt und transparent 
gehandhabt werden. 

• Bei der Gewichtung Evaluations-relevanter Drittmittel 
mussen auf einer unabhangigen Begutachtung von 
Forderantragen basierende Drittmittel hoher bewertet 
werden als solche, die ohne unabhangige Begutach- 
tung eingeworben wurden. Die Art des Drittmittelgebers 
sollte gewichtet werden: Offentliche Forderung und 
neutrale Stiftungen sollten hoher gewichtet werden 
als Interessenverbande oder industrielle Forderer. 

• Auftragsforschung ist mit der Mittelbereitstellung 
ausreichend abgegolten und istgeeignet, Vorarbeiten 
fur kompetitive Antrage zu finanzieren. Sie rechtfertigt 
keinen zusatzlichen Bonus aus offentlichen Quellen, 
kann aber im Bereich derangewandten Forschungzur 
Bewertungvon Personen herangezogen werden. 

• Eine faire und transparente Bewertung der individuel- 
len Mittelanteile an kooperativen Forschungsprojekten 
und industrie-unabhangigen Multicenterstudien soil 
sowohl die Leistung der Haupt-Antragsteller als auch 
diejenigeder Kooperationspartnerangemessen abbil- 
den. Dies ist eine notwendige Voraussetzung fur eine 
Kultur wissenschaftlicher Zusammenarbeit. Ggfs. sind 
allgemeine Gewichtungsschlussel fur die Beteiligung 
an unterschiedlichen Verbundtypen und Studien zu 
definieren (z.B. 1/3 der Bewertungspunktefur Haupt- 
antragsteller und Verteilungder restlichen 2/3 auf al le 
Kooperationspartner bzw. Studienzentren). 

• Je eingeworbener Wissenschaftlerstelle sollten gleiche 
Anteile berucksichtigt werden, da z.B. die Vorhaltung 
einer besonders teuren Technik kein wissenschaftli- 
ches Qualitatsmerkmal darstellt. Bei klinischen Studien 
kann eine Gewichtung nach Hohe der ausgezahlten 
Fallgelder erwogen werden, bei wissenschaftlichen 
Dienstleistungen konnen analog die Untersuchungs- 
kostenpauschalen eingesetzt werden. 

• Die Kosteneffizienz der eingesetzten Mittel bezogen 
auf den wissenschaftlichen Output (gemaS den Krite- 
rien unter Jmpact" und „Nachwuchsf6rderung") sollte 
als MaS fur den angemessenen Umgang mit bereitge- 
stellten Ressourcen in die Leistungsbewertung von 
Forschern und Institutionen eingehen. Hierfur sind 
geeignete Algorithmen zu entwickeln. 

• In der Evaluation medizinischer Forschung sollte ein 
Bonus fur systemische, translationale und Probanden- 
oder Patienten-bezogene Forschung mit konkretem 
Bezugzur praktischen Medizin eingefuhrt werden. 
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3.3.3 Evaluation der Nachwuchsforderung 

Wesentlicher Gegenstand der Evaluation ist die Nach- 
wuchsforderung vom Anfangerstadium bis zum elaborier- 
ten Forscher. 

Grundprinzip sollte sein, Nachwuchs bereits fruh fur die 
Wissenschaft zu begeistern und nachhaltig bis zur Ordi- 
nariatskompetenzzu fordern. Zielgruppen der Forderung 
sind Studierende, Doktoranden und Postdoktoranden 
sowie habilitierte Wissenschaftler der Human- und 
Zahnmedizin, (Zahn-)Arzte und Angehorige benachbarter 
Gebiete. Dabei sollte ein mehrdimensionales Bild von 
Forschung vermittelt werden, das die wissenschaftliche 
Arbeit, die Anwendung in der praktischen Medizin, lebens- 
langes Lernen und Lehren umfasst. Dies deckt sich mit 
dem CanMEDs-Ausbildungsmodell [13], in dem die 
Funktion des „Scholar" in Abbildung der internationalen 
Outcome-Frameworks als eine wesentliche Rolle der Ab- 
solventen medizinischerStudiengange definiert wird. In- 
sofern ist bereits die Forderung der wissenschaftlichen 
Kompetenz im Rahmen der curricularen Lehre im Medi- 
zinstudium als Instrument der Nachwuchsforderung zu 
betrachten. Zu ihrer Evaluation wird hier im Weiteren je- 
doch nur punktuell unter dem Aspekt der Forschungsre- 
levanzStellunggenommen, da dasThema der Leistungs- 
evaluation in der Lehre Gegenstand einer eigenstandigen, 
gemeinsam mit dem Medizinischen Fakultatentag in 
Vorbereitung befindlichen Stellungnahme sein wird. 

3.3.3.1 Quantitative Indikatoren 

Auf Institutionsebene (Fakultat, Institut, Klinik) erfassbare 
Merkmale der Nachwuchsforderung in der Forschung: 

• Breite und Dichte von MaSnahmen zur Nachwuchsfor- 
derung, z.B. 

• Strukturierte Programme zur Heranfuhrung an die 
Forschung: Aus-tauschprogramme, curriculare 
(Vermittlungder Scholar-Kompetenzen, Pflicht- und 
Wahlveranstaltungen) und hypothesengestutzte 
Angebote im Studium (u.a. Journal-Clubs, Haus- 
/Masterarbeiten, How-to Angebote), Graduierten- 
schulen/MD/PhD-Programme [14], Clinical/Physici- 
an Scientist Programme [15], interdisziplinar ver- 
netzte Mentoringprogramme 

• Anzahl bereits in der studentischen Ausbildung be- 
gleiteter Studierender (als modulare Brucke vor 
Beginn wissenschaftlicher Profilierung [16]) 

• Umfanggewahrleisteter „Protected Time" [17], also 
fur Forschungsaufgaben faktisch reservierter Zeit 
ohne konkurrierende Verpflichtungen in Lehre Oder 
Krankenversorgung, fur Nachwuchswissenschaftler 
aller Karrierestufen bis zum Ordinariat. Indikatoren: 
Freistellungszeiten in Vollkraftanteilen pro Beschaf- 
tigungsdauer, Umfang einrichtungsweiter For- 
schungskonferenzzeiten pro Woche bzw. Monat mit 
prozentualer Angabe der Beteiligungder Nachwuchs- 
wissenschaftler 



• Ergebnisse von MaSnahmen zur Nachwuchsforderung 
in der Forschung, z.B. 

• Zahl der Absolventen der o.g. Programme 

• Nachhaltigkeit der Programme; Indikatoren z.B. 
Karrierewege, Publikationen sowie Drittmitteleinwer- 
bungen der Nachwuchswissenschaftler 

• Zahl der Tenure Track-Professuren in Forschung 
und Lehre [18] 

• Anzahl der Berufungen von Mitarbeitern auf wissen- 
schaftliche Leitungspositionen bzw. auf klinische 
Leitungspositionen mit Mindest-Umsetzungder drei 
Dimensionen der Scholar-Kompetenz (Anwendung 
wissenschaftlicher Ergebnisse, lebenslanges Lernen, 
Lehren) 

Individuell erfassbare Kriterien der Nachwuchsforderung 

• Zahl adaquat betreuter Qualifikationsarbeiten (Indika- 
tor z.B. Promotionsvertrage pro abgeschlossener Pro- 
motion) 

• Zahl der eigenen Mitarbeiter mit Forderung in struktu- 
rierten Forschungs- bzw. Fdrderprogrammen bzw. mit 
Federfuhrung in evidenzbasierten Leitlinienverfahren 

• Karrierewege und Forschungserfolge der eigenen 
Mitarbeiter (Kriterien wie oben) 

3.3.3.2 Qualitative Indikatoren 

Auf Institutionsebene (Fakultat, Institut, Klinik) erfassbare 
Merkmale 

• Vorhandensein und (horizontale wie vertikale) Vernet- 
zung geeigneter FordermaSnahmen fur Nachwuchs- 
wissenschaftler auf den unterschiedlichen Karrierestu- 
fen, z.B. strukturierte Promotionsverfahren und nach- 
haltige Forderprogramme, interne und externe Peer 
Review- und „Coaching"-Verfahren („Lernen vom Bes- 
ten", „Common Sense" zur Wissenschaftlichen Exzel- 
lenz, Entwicklungeigener „softskills") zum kollegialen 
Austausch auf Augenhohe mit Nachwuchswissenschaft- 
lern und Experten entsprechend des Leitfadens des 
Wissenschaftsrates und der Bundesarztekammer [19]; 
[20], Research Tracks, Vertrauensdozenten der Fach- 
gesellschaften an der Institution. 

• Vorhandensein und Zuganglichkeit von Qualitatsstan- 
dards (z.B. gute wissenschaftliche Praxis) und wissen- 
schaftlicher Infrastruktur incl. Anschubfinanzierungs- 
programmen (z.B. fur 1 Jahr, urn junge Wissenschaftler 
auf dem Weg zum DFG Antrag zu finanzieren), direkt 
antragsbezogener Infrastruktur (u.a. Kurse zur guten 
klinischen und wissenschaftlichen Praxis incl. guter 
Laborpraxis, Antragsberatung und Antragsunterstut- 
zungbei der Einreichungvon Unterlagen beiTierschutz- 
behorden, Verfugbarkeit elektronischer Laborbucher, 
Nutzungvon u.a. Core Facilities/Core Research Units) 
und klinischerStudien-lnfrastruktur (zur Unterstutzung 
bei formaler Abarbeitung der Behordenarbeit: u.a. 
Datenschutz, Ethikkommission, Bundesinstitut fur 
Arzneimittel und Medizinprodukte, Meldung bei den 
Landesbehorden, An- und Abmeldung bei Clinical- 
trials.gov, Schreiben derSicherheitsberichte; Verfahren 
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zur Vorverdffentlichungder Methodik, evidenzbasierte 
Prufung der Unterlagen). 

• Vorhandensein von Transparenz- und Gleichstellungs- 
maBnahmen, z.B. Transparenz des wissenschaftlichen 
Profils als Instrument fur eine gezielte Hochschulaus- 
wahl durch Nachwuchskrafte, flache Hierarchien mit 
u.a. Nachwuchsvertretungen/wiss. „Assistentenspre- 
chern", Tandemprofessuren (z.B. nach Schweizer 
Beispiel: Assistenzprofessur mit 50% Forschung und 
Lehre/50% Krankenversorgung, dann Tenure Track, 
70% Forschung und Lehre und 30% Krankenversor- 
gung und umgekehrt); Finanzielle Gleichstellung wis- 
senschaftlicher und klinischer Tatigkeit im gesamten 
Karriereverlauf; Nachhaltigkeit durch Vereinbarkeit 
von Karriere und Familie (Kinderbetreuung, ggfs. auch 
nachts, an Wochenenden mitPrioritatfur Wissenschaft- 
lerlnnen, Kinderbetreuung wahrend Tagungen, Semi- 
naren und Konferenzen, Kriseninterventions-Kinderbe- 
treuung). 

Individ uell erfassbare Kriterien 

• Aktive Mitwirkung an der Nachwuchsforderung durch 
Mitgestaltung u.a. von DFG-Nachwuchsakademien, 
Sommerschulen fur herausragende Doktoranden, 
personliches Engagementals Vorbildfunktion, Vermitt- 
lung grundlegender Wissenschaftskompetenzen an 
die Mitarbeiter, z.B. der Differenz zwischen Praxis 
(Alltagswissen), Profession (professionelles Wissen) 
und Wissenschaft (wissenschaftliches Wissen) sowie 
einer Brucke von Analytik, Transformation und Theorie, 
Fruhzeitige Integration der Nachwuchswissenschaftler 
in Arbeitsgruppen mitzunehmenderVerantwortlichkeit. 

• Qualitat der Forschungsleistung der Mitarbeiter, z.B. 
Reproduzierbarkeit der Ergebnisse der eigenen Nach- 
wuchswissenschaftler durch andere Forschungsgrup- 
pen, Self-Assessment: Bewertung eigener wichtigster 
Forschungsergebnisse und Unabhangigkeit bei der 
eigenen Forschung durch Nachwuchswissenschaftler 
als MaSder Nachwuchsforderung durch den jeweiligen 
Mentor, Konsequenter Track der Forschung von 
Nachwuchswissenschaftlern, der sich in einer For- 
schungslinie widerspiegelt und die Relevanz der For- 
schung darstellbar macht. 

3.4 Konsequenzen der Evaluation 

Mogliche Konsequenzen der Evaluation sind a priori klar 
zu definieren und sollten sich an der Zielsetzung und 
Aussagekraft der Evaluation orientieren. Sie konnen ne- 
ben dem unmittelbaren Feedback und gemeinsamer 
Diskussion der Ergebnisse im gezielten Einsatz von Instru- 
menten der Organisations- (z.B. Schwerpunktbildung), 
Projekt- (z.B. Fdrderentscheidung) und Karriereplanung 
(z.B. Berufung, Tenure, Mentoring) liegen, sofern diesem 
ein ausgewogenes und transparentes Verfahren zugrunde 
liegt. 

Die leistungsorientierte Mittelvergabe ist nur eine von 
zahlreichen mdglichen Konsequenzen der Evaluation und 
in ihrer Steuerungswirkung umstritten [21]. Besonders 



wichtigfur die in aller Regel intrinsisch hoch motivierten 
Wissenschaftlerlnnen ist die Wertschatzung der geleiste- 
ten Arbeit. Dabei sollten gleichermaSen Leistungen in 
der Forschung und der Lehre sowie (in der klinischen 
Medizin) auch Leistungen in der Krankenversorgung an- 
erkannt werden. Die Anerkennung kann sich auch in der 
Bereitstellungzeitlicher Ressourcen darstellen. Dagegen 
lauftein Ubergewichtauf finanziellen Anreizen als extrin- 
sischem Motivator langfristigGefahr, intrinsische Motiva- 
tion zu untergraben. Dies gilt insbesondere, wenn die 
zugrundeliegenden Bewertungsprozesseals intransparent 
oder ungerecht erlebt werden. 

Es wird daher groSer Wert auf eine ausreichende 
Grundausstattung der Einrichtungen gelegt, die jeweils 
nur in langeren Abstanden auf der Basis umfassender 
Evaluationen an neue Entwicklungen angepasst werden 
sollte. 

Anmerkungen 
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Das vorliegende Positionspapier basiert auf den Ergeb- 
nissen des Berliner Forums der AWMF zum Thema „Me- 
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tung" am 18.10.2013. Auf diesem Forum wurden von 
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Wissenschaftsorganisationen (Deutsche Forschungsge- 
meinschaft, Medizinischer Fakultatentag, Projekttrager 
im DLR, Wissenschaftsrat) und Teilnehmerlnnen der ad- 
hoc-Schreibgruppen Vorschlage erarbeitet, die in anschlie- 
Senden Diskussionen in der Kommission fur Leistungs- 
evaluation in Forschung und Lehre weiterentwickelt und 
vom AWMF-Prasidium konsentiert wurden. Die Autoren 
danken alien Mitwirkenden fur ihre Beitrage zum vorlie- 
genden Papier. Besondeszu erwahnen sind (in alphabe- 
tischer Reihenfolge): Prof. K.-M. Debatin, Prof. R. Deinzer, 
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Alle Autoren sind Universitatsangehorige mitzugehorigen 
Amtern in Leitung und Selbstverwaltung und Mitglieder 
wissenschaftlicher Fachgesellschaften, teilweise in leiten- 
der Funktion (THL, RDT, CFV). CHL, RDT und CS sind 
Mitglieder des AWMF-Prasidiums. Alle Autoren sind Auto- 
ren wissenschaftlicher Publikationen. Im Zuge der Erstel- 
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sekosten zu Sitzungen erhalten. CHL, RDT und CS haben 
Projektforderungen aus offentlichen Mitteln erhalten. 
CHL, SH und RDT haben Fordermittel von Unternehmen 
bzw. Verbanden der privaten Wirtschaft erhalten. CHL 
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und RDT haben Honorare von Unternehmen der privaten 
Wirtschaft erhalten. CS war bis Mai 2014 Studiendekanin, 
RDT ist Prodekan fur Forschung. CHL, EB, THL, RDT, CFV 
und CS sind Herausgeber bzw. Mitherausgeber wissen- 
schaftlicher Zeitschriften. CHL und EBsind Buchheraus- 
geber. CHL, EB, RDT, CFV und CS sind Gutachterfiir For- 
schungsforderorganisationen bzw. Stiftungen. THL ist 
Stiftungsbeirat. 
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